F3: Samband mellan kategoriska variabler
En variabel delar in deltagare i kategorier baserat på hur ofta de äter fisk:
Den andra variabeln delar in deltagarna i två kategorier:
R använder vi funktionen tally()
margins = TRUE lägger till marginaler)Genom att dela varje frekvens med det totala antalet observationer, och sedan multiplicera med 100, kan vi få en relativ frekvenstabell
Antalet som åt mycket fisk och som inte fick cancer var exempelvis 507, så motsvarande andel blir
\[\cfrac{507}{6272}\cdot 100\% = 8.0835 \%.\]
format="percent" i tally() får vi en korstabell med relativa frekvenserVi har dock fortfarande inte sett någon tabell som enkelt låter oss se samband mellan variablerna, vilket var syftet med korstabellen
Vi vänder oss därför till betingade fördelningar
- 14 deltagare fick prostatacancer, och 110 fick inte det.
- Vi tar fram den relativa frekvensen på samma sätt som när vi bara har en variabel
- Andelen med cancer är \(14/124=0.1129\) och andelen utan cancer är \(110/124=0.8871\)
- Detta är vår betingade fördelning.
R för att skapa en tabell som visar den betingade fördelningen för varje kategoritally() skriver vi cancer|diet, som uttalas cancer givet dietVi kan ge en snabbare överblick av samma information med en graf
Givet en viss diet kan vi nu säga hur stor andel som har diagnosticerats med cancer
Betyder det att vi även kan säga hur stor andel av dem som diagnosticerat med cancer som har en viss diet?
Nej, inte utan att räkna ut nya betingade värden
Den här gången vill vi veta hur ofta personer äter fisk
Vi tar den här gången fram en tabell som är betingad på cancer-variabeln
Säg att vi vill räkna ut andelen som aldrig/sällan åt fisk betingat på att de fick cancer, vi gör då på liknande sätt som tidigare:
För att göra motsvarande beräkning i R sätter vi diet|cancer i tally()
Notera att det nu är kolumnerna som summerar till 100, då vi nu har gjort en separat frekvenstabell för varje kolumn
Något som framgår här, och som vi inte såg när vi betingade fördelningen på diet, är att det är få av deltagarna som aldrig eller sällan äter fisk
Stapeldiagrammet till vänster är betingat på variabeln Class. Det hjälper oss att besvara frågan om hur stor andel som överlevde inom varje biljettklass
Stapeldiagrammet till höger är betingat på variabeln Survived. Det hjälper oss att besvara frågan om hur stor andel av dem som överleve, respektive av dem som inte överlevde, som reste i en viss klass
Stapeldiagrammet till vänster ger en bild av andelen som överlevde katastrofen, men ingen information om hur många som ingick i varje klass
Stapeldiagrammet till höger ger en bild av hur många som reste i respektive klass, men ingen information om andelen som överlevde
I R skapar vi en mosaic-plot med funktionen mosaic() i paketet vcd
Ett exempel med studien om fisk och prostatacancer ges nedan, och ni kommer arbeta mer med detta i datorlab 3
mosaic(~diet + cancer, data=fish, shade=TRUE,
gp=shading_Friendly2, legend=FALSE) #Kräver paketet vcdDet är tydligt att deltagare i studien som diagnosticerades med cancer var överrepresenterade bland dem som aldrig åt fisk
Betyder det att vi har hittat ett samband? Ja och nej.
Det var bara 14 deltagare i studien som fick prostatacancer och som aldrig/sällan äter fisk, ett litet underlag om vi vill dra slutsatser gällande hela befolkningen
Det kan vara slumpen som gör att vi ser ut att ha ett samband mellan två variabler
Vi upprepar vår procedur att fördela platserna i livbåtarna flera gånger
Varje gång gör vi ett nytt pajdiagram som visar utfallet
Antag att vi har konstaterat att det finns ett samband mellan biljettyp och överlevnad
Betyder det att en förstaklassbiljett per automatik medförde att du hade en bättre chans att få en plats i en livbåt?
Nej, ett samband är inte samma sak som kausalitet!
Det kan finnas andra variabler som orsakar sambandet: Var social ställning en underliggande faktor? Prioriterades kvinnor och barn på 1910-talet?
Att fundera över
Vissa tolkade artikeln illvilligt, och menade att kraven sänktes för att kvotera in kvinnor som egentligen inte förtjänar en plats på utbildningen
Finns det någon som kan kontextualisera?
Simpson’s paradox innebär att ett samband mellan två variabler kan försvinna när datamaterialet delas in i olika grupper
På sid 106 i kursboken hittar vi en korstabell som tycks peka på att män hade lättare än kvinnor att bli antagna som doktorander på UC Berkeley
Fler män sökte till school A och B, där det var lättare att komma in
Fler kvinnor sökte till school E och F, där det var svårare att komma in
Kvinnor hade lägre antagningsgrad på grund av att de sökte program som var svårare att komma in på
Dessa slides skapades av Karl Sigfrid för kursen Statistik och Dataanalys I och har uppdaterats av Oskar Gustafsson och Valentin Zulj